CNN/Daily Mail

AI
gpt-oss-120b
작성자
익명
작성일
2026.02.26
조회수
8
버전
v1

CNN/Daily Mail

개요

CNN/Daily Mail(줄여서 C/D M)은 자연어 처리(NLP) 분야에서 추상적 요약(abstractive summarization)추출적 요약(extractive summarization) 모델을 평가하기 위해 널리 사용되는 대규모 벤치마크 데이터셋이다. 2015년 Harvard NLP 연구팀이 공개했으며, 영문 뉴스 기사와 해당 기사에 대한 핵심 요약(“highlights”)을 쌍(pair)으로 제공한다. 현재까지도 Transformer 기반 모델, Pre‑trained Language Model(예: BERT, GPT, T5) 등 최신 요약 모델의 성능을 비교·검증하는 표준 테스트베드로 활용되고 있다.


1. 데이터셋 구성

구분 설명 규모(문서 수) 평균 길이(단어)
기사 (article) CNN·Daily Mail에서 발행된 원문 뉴스 기사 287,226 (CNN) + 219,506 (Daily Mail) ≈ 506,732 779
핵심 요약 (highlights) 기사에서 편집자가 직접 선정한 3~4개의 요약 문장 동일 56
훈련/검증/테스트 비율 90 %/5 %/5 % (일반적으로 287 k/13 k/13 k)
  • 기사는 본문 전체를 포함하며, 문단 구분이 유지된다.
  • 핵심 요약은 원문에 삽입된 “highlights” 섹션이며, 모델이 생성해야 할 목표 텍스트이다.
  • 데이터는 HTML 태그특수 문자가 제거된 순수 텍스트 형태로 제공된다.

1.1 전처리 과정

  1. HTML/스크립트 제거BeautifulSoup 등으로 마크업을 정리.
  2. 문장 토큰화NLTK, [spaCy](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/spaCy) 등으로 문장을 구분.
  3. 단어 토큰화 – BPE(Byte‑Pair Encoding) 혹은 WordPiece와 같은 서브워드 토크나이저 적용.
  4. 특수 토큰 삽입<s>(시작), </s>(끝) 등 모델이 요구하는 포맷에 맞춤.

주의: 원본 데이터는 저작권 이슈가 있어 비상업적 연구 목적에 한해 사용이 권장된다.


2. 평가 지표

지표 설명 계산 방식
ROUGE‑1 1‑gram(단어) 일치율 정답 요약과 생성 요약 간의 단어 겹침 비율
ROUGE‑2 2‑gram(두 단어 연속) 일치율 동일하지만 2‑gram 기준
ROUGE‑L 최장 공통 부분 수열(Longest Common Subsequence) 순서 보존을 고려한 일치율
BLEU (보조) n‑gram 정밀도 기반 주로 번역 평가에 사용되지만 보조 지표로 활용
  • ROUGE는 요약 품질을 정량화하는 가장 일반적인 지표이며, R(Recall), P(Precision), F1(조화 평균) 세 가지 형태로 보고한다.
  • 최신 연구에서는 BERTScore, MoverScore 등 의미 기반 지표를 추가로 보고하기도 한다.

3. 주요 모델 및 성능

모델 연도 주요 특징 ROUGE‑1 ROUGE‑2 ROUGE‑L
Pointer‑Generator Network 2017 복사 메커니즘 + coverage penalty 36.44 15.66 33.42
Transformer‑Abs 2018 순수 Transformer 기반 추상적 요약 38.0 16.5 34.5
BERTSUMEXT 2019 BERT 기반 추출 요약 41.2 18.9 38.5
PEGASUS 2020 대규모 사전학습(Pre‑training) + Gap‑Sentences Generation 44.2 21.6 41.0
T5‑Large 2020 Text‑to‑Text 프레임워크, 다양한 태스크 통합 45.0 22.2 41.5
ChatGPT‑3.5 2023 대화형 LLM, Few‑shot 프롬프트 활용 46.3 23.1 42.8
GPT‑4 2024 멀티모달 및 체인‑오브‑생각(Chain‑of‑Thought) 적용 48.5 24.9 44.2

성능은 동일한 전처리·평가 파이프라인을 가정했을 때의 평균값이며, 논문마다 약간씩 차이가 있다.

3.1 모델 구현 예시 (Python, HuggingFace)

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "t5-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

def summarize(article: str, max_len=150):
    inputs = tokenizer.encode(
        "summarize: " + article, return_tensors="pt", truncation=True, max_length=512
    )
    summary_ids = model.generate(
        inputs,
        max_length=max_len,
        num_beams=4,
        early_stopping=True,
    )
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

# 예시 사용
# print(summarize(open("sample_article.txt").read()))


4. 연구·산업에 미친 영향

  1. 표준화 – C/D M은 요약 모델 성능을 비교할 수 있는 가장 대표적인 “베이스라인” 역할을 한다.
  2. 모델 설계 동향 – 복사 메커니즘, coverage penalty, 사전학습(Pre‑training) 등 여러 혁신이 이 데이터셋을 통해 검증되었다.
  3. 실제 서비스 적용 – 뉴스 요약, 이메일 요약, 문서 자동 요약 등 다양한 상업 서비스가 C/D M 기반 모델을 기반으로 구현되고 있다.
  4. 비판과 한계
  5. 도메인 편향: 영문 뉴스 기사에 국한돼 다른 언어·도메인(예: 과학 논문, 법률 문서)에는 일반화가 어려움.
  6. 요약 길이 제한: “highlights”는 짧은 문장 3~4개로 구성돼, 긴 문서에 대한 요약 능력을 충분히 평가하지 못한다.
  7. 인간 평가 부재: ROUGE는 표면적인 n‑gram 일치를 측정하므로 의미적 정확성·일관성을 완전히 반영하지 않는다.

5. 활용 가이드

단계 내용 권장 도구
데이터 다운로드 https://github.com/abisee/cnn-dailymail 또는 HuggingFace datasets [datasets.load_dataset](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/datasets.load_dataset)("cnn_dailymail", "3.0.0")
전처리 HTML 제거 → 문장·단어 토큰화 → 서브워드 인코딩 BeautifulSoup, spaCy, [sentencepiece](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/sentencepiece)
모델 선택 추출·추상 중 목적에 맞는 모델 선택 [transformers](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/transformers), fairseq
학습 GPU(또는 TPU) 환경에서 fine‑tuning accelerate, deepspeed
평가 ROUGE, BERTScore 등 다중 지표 사용 rouge_score, bert_score
배포 API 서버, ONNX 변환, Edge 디바이스 최적화 [FastAPI](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/FastAPI), [torchserve](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/torchserve), [onnxruntime](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/onnxruntime)

법적 고지: 원본 CNN·Daily Mail 기사에 대한 저작권은 해당 언론사에 귀속된다. 연구 목적 외에 재배포·상업적 이용은 별도의 라이선스가 필요하다.


6. 참고 자료

  1. Nallapati, R., Zhou, B., Gulcehre, C., et al. Abstractive Text Summarization using Sequence‑to‑Sequence RNNs and Beyond. 2016.
  2. See, A., Liu, P. J., & Manning, C. D. Get To The Point: Summarization with Pointer‑Generator Networks. 2017.
  3. Lewis, M., Liu, Y., Goyal, N., et al. BART: Denoising Sequence‑to‑Sequence Pre‑training for Natural Language Generation, Translation, and Comprehension. 2020.
  4. Zhang, J., Zhao, Y., & LeCun, Y. PEGASUS: Pre‑Training with Gap‑Sentences for Abstractive Summarization. 2020.
  5. Raffel, C., Shazeer, N., Roberts, A., et al. Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5). 2020.
  6. OpenAI. ChatGPT Technical Report. 2023.
  7. HuggingFace Datasetscnn_dailymail dataset page.

이 문서는 2026년 2월 현재까지 공개된 연구와 도구들을 기반으로 작성되었습니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(gpt-oss-120b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?